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摘 要 


不 良 光照 条 件 下 的 目标 检测 是 一 个 重要 的 图 像 处 理 任务 , 目前 的 
研究 主要 通过 图 像 增强 来 减少 图 像 噪声 , 同时 改进 网 络 结构 和 数据 集 
来 适应 不 良 光照 条 件 下 的 目标 检测 。 然 而 ， 很 少 有 人 研究 不 良 光 照 条 
件 对 目标 检测 的 具体 影响 。 因 此 在 本 文中 ,我 们 通过 算法 生成 模拟 不 
良 光照 条 件 的 数据 集 ， 在 不 同 的 噪声 条 件 下 进行 目标 检测 ， 统 计 检测 
结果 ， 对 影响 进行 研究 。 


关键 词 : 低 照 度 ，YOLOv5， 目 标 检测 


1.1 研究 意义 


近年 来 ， 自 动 驾 驶 逐渐 兴起 并 受到 诸多 研究 者 的 青睐 。 在 自动 当 驶 领域 中 ， 
目标 检测 对 安全 驾驶 起 到 重要 作用 ，2D 目标 检测 通过 接收 相机 的 数据 ， 预 测 出 
周围 存在 的 物体 和 交通 标志 、 斑 马 线 等 图 形 信息 。 随 着 深度 学 习 的 发 展 ，2D 目 
标 检测 的 精度 和 速度 在 不 断 地 提高 ， 目 前 的 目标 检测 算法 主要 有 One-Stage 和 
Two-Stage 两 类 ， 代 表 性 的 算法 有 YOLO 系列 、RCNN 系列 、Retina-Net 等 。 正 
常 光照 条 件 下 ，2D 目标 检测 已 经 能 够 达到 很 高 的 精度 。 

然而 在 现实 中 , 环境 的 复杂 性 使 得 图 像 的 输入 质量 并 不 能 得 到 保证 , 不 恨 光 
照 条 件 下 , 输入 图 像 中 的 特征 信息 会 变 得 模糊 ,这 一 变化 会 对 目标 检测 的 性 能 造 
成 影响 。 而 在 自动 驾驶 领域 , 为 了 实现 智能 系统 的 全 天 候 运 行 , 不 良 光照 条 件 下 
的 目标 检测 是 一 个 必须 要 解决 的 问题 。 
有 关 不 良 光照 条 件 下 的 目标 检测 工作 已 经 有 很 多 , 许多 研究 尝试 通过 图 像 增 
强 和 前 处 理 方法 减少 不 良 光照 条 件 下 图 像 中 的 噪声 , 包括 调整 图 像 对 比 度 、 增 强 
亮度 、 去 除 噪 声 等 手段 ， 使 目标 更 容易 被 检测 到 。 另 外 ， 近 些 年 深度 学 习 技 术 在 
解决 不 良 光照 条 件 下 的 目标 检测 问题 上 取得 了 显著 的 进展 , 深度 学 习 模型 能 够 从 
大 量 数 据 中 学 习 特征 ， 对 光照 变化 具有 一 定 的 鲁 棒 性 。 同 时 , 一 些 研究 将 可 见 光 
图 像 与 其 他 传感器 ， 如 红外 、 热 成 像 的 数据 进行 融合 ， 以 提高 在 不 同 光 照 条 件 下 
目标 检测 的 性 能 ， 多 模 态 融合 有 助 于 提供 更 全 面 可 靠 的 信息 。 

然而 ,很 少 有 研究 者 分 析 不 恨 光 照 条 件 对 目标 检测 的 影响 大 小 。 因 此 需要 得 
化 不 良 光 照 条 件 对 目标 检测 的 影响 , 这 一 研究 可 以 让 科研 工作 者 更 加 直观 的 了 解 
图 像 噪声 对 目标 检测 的 影响 , 从 而 帮助 研究 人 员 针 对 不 同 场景 的 需要 更 加 合理 的 
制定 目标 检测 的 改进 策略 。 
1.2 研究 现状 


I 


四 


对 于 目标 检测 的 方法 , 目前 有 0ne-Stage 和 Two-Stage 两 个 类 别 ， 有 许多 优 
秀 的 目标 检测 模型 。0ne-Stage 的 方法 直接 提取 特征 ， 然 后 进行 目标 检测 ， 速 度 
快 ， 能 够 避免 背景 的 误 报 ， 但 目标 检 出 率 和 定位 精度 较 低 ， 主 要 算法 有 : Y0L0 
系列 ，SSD 系列 ，Retina-Net，DetectNet 等 ; Two-Stage 的 方法 则 先生 成 候选 


区 域 ， 然 后 进行 目标 分 类 与 定位 ， 训 练 时 间 长 ， 速 度 慢 ， 但 目标 检测 精度 高 ， 主 
要 算法 有 : RCNN 系列 ，SPPNet，R-FCN 等 。 

针对 不 良 光照 目标 检测 , 目前 解决 该 问题 主要 是 利用 低 照 度 图 像 增强 算法 对 
图 像 进 行 处 理 ， 常 用 的 图 像 增强 方法 有 直方 图 均衡 化 ， 同 态 滤波 ，Retinex 理论 
等 , 同时 随 着 深度 学 习 的 发 展 , 基于 深度 学 习 的 图 像 增强 方法 也 逐渐 得 到 了 完善 。 
通过 改进 目标 检测 网 络 和 使 用 不 良 光 照 数据 集 的 方式 , 也 能 够 提升 不 良 光 照 条 件 
下 的 目标 检测 能 


二 、 相 关 理论 和 技术 


2.1 目标 检测 算法 对 比 


2.1.1 RCNN 算法 

RCNN 是 一 种 基于 卷 积 神经 网 络 的 两 阶段 目标 检测 算法 , 它 是 第 一 个 成 功 应 
用 于 目标 检测 的 卷 积 神经 网 络 , RCNN 的 核心 思想 是 对 候选 区 域 进行 分 类 , 首先 
使 用 筛选 算法 提取 出 候选 区 域 , 通过 卷 积 神经 网 络 对 每 个 候选 区 域 进行 特征 提取 ， 
之 后 使 用 支持 向 量 机 对 每 个 候选 区 域 进行 分 类 ,对 于 分 类 为 正 样 本 的 候选 框 ,使 
用 回归 器 进行 微调 ， 以 得 到 更 准确 的 检测 框 。 相 比 于 传统 算法 , RCNN 具有 更 高 
的 准确 率 , 但 是 计算 速度 较 慢 ， 并 且 会 占用 大 量 的 计算 资源 ， 而且 传统 的 卷 积 神 
经 网 络 需 要 固定 尺寸 的 输入 , 这 会 导致 图 像 在 缩放 过 程 中 丢失 一 部 分 信息 , 为 了 
解决 这 个 问题 ,人们 提出 了 Spatial Pyramid Pooling Networks (SPPnet) 结 构 ， 即 空 
间 人 金字塔 池 化 ， 使 得 图 像 不 再 需要 固定 的 输入 尺寸 。 

为 了 提高 RCNN 的 检测 速度 ， 作 者 在 RCNN 的 基础 上 提出 了 Fast-RCNN， 
相 比 于 RCNN 中 每 个 候选 区 单独 进行 特征 提取 ，Fast-RCNN 以 整 张 图 片 作为 输 
入 进行 特征 提取 ， 大 大 减 小 了 计算 量 。 为 了 进一步 减 小 计算 量 ， 人 们 在 此 基础 上 
引入 了 Region Proposal Network，RPN 为 全 卷 积 网 络 ， 将 候选 框 的 提取 和 目标 预 
测 集成 到 一 起 ， 进 一 步 减 小 了 计算 量 ， 同 时 提高 了 网 络 性 能 。 
2.1.2 SSD 算法 

SSD 算法 是 一 种 单 阶段 的 目标 检测 算法 ， 因 此 是 一 种 快速 的 目标 检测 算法 。 
SSD 的 网 络 由 VGG16 网 络 和 特征 提取 层 构成 。SSD 主要 使 用 了 两 个 技术 ,一 是 
多 尺度 预测 ,在 多 层 神 经 网 络 中 ， 从 不 同 尺度 的 特征 图 中 检测 目标 ， 从 而 处 理 图 


像 中 不 同 大 小 的 物体 ， 提 高 检 出 率 ， 二 是 SSD 算法 中 会 预测 出 多 个 具有 不 同 长 
宽 的 预测 框 ， 并 存储 这 些 预测 框 , 通过 置信 和 度 得 分 和 非 极 大 值 抑 制 对 预测 框 进行 
调整 ， 往 选 出 最 终 的 预测 框 并 确定 其 类 别 。SSD 网 络 比较 简单 ， 该 算法 将 目标 检 
测 整合 到 一 个 网 络 中 ,加 快 了 检测 速度 ， 而 多 尺度 预测 则 提高 了 算法 的 性 能 ， 同 
时 训练 时 只 需要 标注 检测 框 和 类 别 ， 不 需要 繁琐 的 先 验 框 设置 ， 这 使 得 SSD 算 
去 易于 人 们 的 训练 ， 并 能 够 集成 到 其 他 的 网 络 中 ， 因 此 SSD 算法 得 到 了 广泛 的 
Y 用 。 
2.1.3 YOLO 算法 

Redmon 等 人 提出 了 YOLO 算法 ， 全 名 为 You Only Look Once， 这 是 一 种 速 
度 很 快 的 单 阶段 目标 检测 算法 , 它 可 以 在 保证 检测 性 能 的 同时 实现 很 快 的 检测 速 
度 。 YOLO 算法 将 目标 检测 问题 转化 为 回归 问题 ,通过 单个 神经 网 络 对 图 像 直接 
进行 目标 检测 。YOLO 算法 首先 将 图 像 划 分 为 SXS 的 网 格 ， 对 每 个 网 格 进行 计 
算 ， 预 测 该 网 格 中 是 否 包含 物体 ， 如 果 一 个 物体 的 中 心 落 到 了 这 个 网 格 中 ， 就 由 
这 个 网 格 负 责 预 测 该 物体 的 类 别 、 位 置 、 大 小 ,每 个 网 格 预测 检测 框 和 检测 框 的 
得 分 ， 并 通过 非 极 大 值 抑制 进行 处 理 ， 排 除 重 复 预测 的 物体 。YOLO 算法 结构 简 
单 ， 运 行 速度 快 ， 能 够 满足 实时 性 检测 的 要 求 ， 但 也 因此 会 出 现 一 些 偏差 ， 同 时 
因为 其 划分 网 格 的 设计 , 由 于 网 格 数量 和 每 个 网 格 能 够 产生 的 预测 框 的 数量 有 限 ， 
对 于 图 像 中 出 现 的 密集 小 物体 的 预测 性 能 较 差 。 

综合 考虑 目标 检测 的 性 能 和 速度 ， 后 续 实验 采用 YoloV5 目标 检测 算法 ， 其 
网 络 结构 如 图 1 所 示 。 
2. 2YoloV5 网 络 概述 


一 < 


在 输入 端 上 ，YOLOV5 采用 了 Mosaic 数据 增强 ， 采 用 四 张 图 片 ， 通 过 随机 
缩放 ， 随 机 裁剪 ， 随 机 排 布 的 方式 进行 拼接 ,丰富 了 数据 集 ， 同 时 对 于 小 目标 的 
随机 缩放 使 得 算法 对 小 目标 的 检测 效果 得 到 了 提升 ， 提 高 了 网 络 模型 的 鲁 棒 性 ， 
同时 这 种 将 四 张 图 片 进行 拼接 的 方式 , 使 得 模型 在 训练 时 能 够 同时 输入 四 张 图 片 
的 数据 ， 在 训练 时 一 个 GPU 也 能 够 达到 较 好 的 训练 效果 


YOLOVv5s Model Structure 


图 1 网 络 结构 


YOLOV5 的 Backbone 中 采用 了 Focus 模块 ， 在 Focus 中 采用 了 切片 结构 ， 
减 小 了 图 片 的 尺寸 ,增加 了 通道 数 ， 切 片 操 作 如 图 2 所 示 ， 采 用 该 操作 ， 图 片 尺 
寸 减 少 了 一 半 , 通道 数 则 变 成 了 四 倍 ， 达 到 了 类 似 下 采样 的 目的 ， 同 时 图 片 中 的 
言 轧 没有 丢失 。 另 一 个 模块 是 CSP 结构 ，CSP 结构 用 于 解决 计算 量 问题 ， 优 化 
了 网 络 中 的 计算 ， 在 保证 精度 的 同时 减少 了 计算 量 。 


图 2 切片 操作 


整体 结构 类 似 FPN+PAN 结构 , 在 目标 检测 中 ,深层 的 特征 图 带 有 较 强 的 语 
义 信息 ,但 是 位 置信 息 较 弱 ， 而 浅 层 的 特征 图 中 ,位 置信 息 较 强 ,但 是 携带 的 语 
义 信息 较 弱 ，FPN 结构 则 将 深层 的 语义 信息 传递 到 浅 层 ，PAN 结构 则 将 浅 层 的 
位 置信 息 传递 到 深层 ， 从 而 增强 网 络 在 多 个 尺度 上 的 语义 表达 和 物体 定位 能 力 ， 
进一步 提高 了 特征 提取 能 


图 3 FPN+PAN 


2. 3 算法 输入 和 输出 


目标 检测 算法 的 输入 一 般 为 RGB 图 像 ， 算 法 需要 预测 出 物体 的 类 别 和 在 图 
像 中 的 位 置 , 因此 输出 一 般 由 物体 类 别 和 检测 框 的 表示 信息 构成 。 目 标 类 别 由 置 
信和 度 来 确定 ， 算 法 会 选择 所 有 预测 类 别 中 置信 和 度 最 大 的 一 类 作为 最 终 的 类 别 ， 同 
时 在 网 络 中 会 设置 置信 和 度 阐 值 , 超过 阔 值 的 物体 才 会 作为 正 样本 , 低 于 阔 值 的 作 
为 负 样本 。 检 测 框 的 位 置 描述 一 般 由 某 一 顶点 或 者 中 心 点 的 坐标 加 上 检测 框 的 长 
宽 来 描述 其 位 置 和 大 小 。 


三 、 不 良 光照 图 像 的 生成 


来 自 摄像 头 的 图 像 葵 入 易 受 到 光照 和 天 气 的 影响 ,在 不 良 光 照 的 影响 下 ， 图 
像 会 产生 不 同 程度 的 失真 。 现 实 环境 中 获取 不 良 光 照 图 像 难度 较 大 ， 且 无 法 获得 
原 图 -不 良 光照 图 像 的 图 像 对 ， 但 不 良 光 照 图 像 可 以 通过 图 像 处 理 算法 来 生成 ， 
且 品 声 的 强度 可 以 通过 参数 来 量化 。 因 此 可 以 通过 现 有 的 图 像 处 理 算 法 , 获取 不 
民 光 照 条 件 下 的 图 像 。 

强 光 、 弱 光 图 像 生 成 : 

计算 机 中 常用 的 是 RGB 色彩 模式 ， 通 过 将 RGB 色彩 模式 转变 为 HSV 色彩 
模式 ， 即 色相 (Hue)、 as 改变 其 中 的 亮度 分 量 来 
控制 图 像 中 的 光照 强度 ， 再 将 图 像 转换 回 RGB 色彩 模式 ， 就 能 够 得 到 我 们 想 要 
的 任意 光照 强度 的 数据 集 。 转 换 公 式 如 下 : 


V = MAX (R ,G ,B ) 
Vv 一 MT N (R ,G ,DB ) 
Ss = 0 Vv 地 0 
0 else 
60(G —-B ) 讶 二 衣 
V MIN (R ,G ,B ) 
B —R 
万 = 1 V =G 
V 一 MT N (R ,G ,B ) 
R 2 
人 ea Vv = 了 
V MIN (R ,G ,B ) 


if H <0, = +360 

基于 光学 模型 的 筋 者 图 像 生 成 : 

筋 者 图 像 和 原始 图 像 的 数学 关系 可 以 表示 为 : 

I (x )=J (x jt (x )+L (1-t (x )) 

公式 中 ，ICO 为 有 雾 图 像 ，x 为 像素 的 坐标 值 ，J(x) 为 原始 图 像 ，L 为 全 球 大 
气 光 成 分 ，t(x) 为 透射 率 ， 在 圾 才 场景 中 ， 由 于 筋 的 影响 物体 的 反射 能 量 J(x)t(x) 
被 削弱 ， 同 时 筋 考 引 起 的 大 气 a 
图 像 可 以 看 作 由 物体 的 反射 光 和 大 气 的 散射 光 形 成 


设 在 (x, 生成 雾 者 ， 中 心 为 (X,Y)，size 为 雾 化 尺寸 ,通过 引入 参数 a， 控 制 
雾 者 浓度 ， 雾 者 的 合成 公式 如 下 ; 


d = -0.04 x |(x 一 和 ) ly 一 了 ) +size 
tad =e ~ xd 
I (x ,y )=J (x ,y )xtdq +A x(1l1-tdq ) 


这 种 策略 可 以 通过 控制 算法 参数 来 量化 图 像 中 的 噪声 大 小 , 同时 生成 的 原 图 
和 一 系列 相应 的 不 民 光 照 图 像 能 够 用 于 对 比试 验 ， 便 于 开展 后 续 的 研究 。 


四 、 实 验 和 分 析 


4. 1 模型 训练 


使 用 VOC2007 数据 集 对 模型 进行 训练 ， 总 共 训 练 50 个 epoch， 训 练 中 设置 
batch-size 为 16， 首 先 以 0.01 的 初始 学 习 率 训练 10 个 epoch， 随 后 ， 调 整 学 习 率 
为 0.001， 继 续 训 练 20 个 epoch， 最 终 ， 调 整 学 习 率 为 0.0001， 继 续 训 练 20 个 
epoch， 至 此 ， 训 练 中 的 各 参数 变化 已 不 明显 ， 模 型 基本 收敛 。 
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4 训练 中 模型 loss 变化 


模型 在 测试 集中 的 表现 如 表 1 所 示 : 


表 1 模型 性 外 


CC 


Class Precision Recall mAP mAP0.5:0.95 
Bicycle 0.866 0.847 0.905 0.587 
Bus 0.881 0.781 0.861 0.646 
Car 0.801 0.837 0.887 0.635 
Motorbike 0.832 0.836 0.879 0.567 
Person 0.834 0.862 0.898 0.572 


4. 2 噪声 影响 分 析 


使 用 训练 好 的 YOLOV5 目标 检测 算法 对 不 良 光 照 图 像 进行 目标 检测 ， 在 检 
测 中 设置 置信 度 阀 值 为 03， 目 标 检测 置信 度 大 于 0.3 的 会 被 识别 为 正 样本 。 通 
过 控制 图 像 处 理 算 法 的 参数 ， 在 强 光 、 弱 光 、 雪 玫 条 件 下 分 别 对 图 像 进行 检测 ， 
统计 同一 物体 在 不 同 噪声 等 级 中 对 应 的 目标 检测 置信 度 , 通过 对 检测 结果 进行 整 
理 ， 得 到 了 不 同 噪声 下 图 像 中 物体 的 目标 检测 置信 度 变 化 曲线 。 
强 光 条 件 下 的 统计 结果 如 图 5 所 示 ， 总 体 上 来 看 ， 噪 声 等 级 较 低 时 ， 大 部 分 
物体 的 置信 度 变 化 较 小 。 在 噪声 等 级 在 1 到 10 级 之 间 ， 物 体 3， 物 体 5， 物 体 8 
的 置信 度 出 现 了 明显 下 降 , 低 于 设置 的 阔 值 , 其 他 物体 的 目标 检测 置信 和 度 变 化 较 
小 ， 当 噪声 等 级 继续 变 高 时 ， 物 体 1 和 物体 2 的 置信 度 也 出 现下 降 。 
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5 强 光 条 件 下 噪声 -置信 度 变 化 


如 图 6 所 示 , 与 强 光 条 件 相 比 ， 弱 光 条 件 下 的 目标 检测 置信 和 度 相对 平稳 ， 大 
部 分 物体 的 置信 和 度 几 乎 不 受 影 响 , 同时 由 于 图 像 中 的 反光 较 弱 ,部 分 物体 出 现 置 
信 度 增加 的 情况 。 
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6 弱 光 条 件 下 噪声 -置信 度 变化 


务 才 条件 下 ， 大 部 分 物体 都 受到 较 大 的 影响 , 少 部 分 物体 由 于 生成 的 秀才 浓 
度 较 低 ， 受 影响 程度 较 轻 ， 如 图 7 所 示 。 
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7 雾 狂 条件 下 噪声 -置信 度 变 化 


通过 特征 图 可 视 化 , 输出 原 图 的 浅 层 特征 图 和 不 同 噪声 条 件 下 的 浅 层 特征 图 ， 
结果 如 图 8 所 示 : 


(a) 原 图 (b) 雾 旱 


(c) 暗 光 (d) 强 光 


图 8 浅 层 特征 图 


噪声 的 引入 使 图 像 对 比 度 下 降 , 物体 的 特征 变 的 模糊 , 增加 了 算法 识别 物体 


特征 的 难度 ， 影 响 目标 检测 的 结果 。 三 种 噪声 条 件 下 ， 弱 光 对 特征 的 影响 较 小 ， 


强 光 和 和 雾 狂 对 特征 的 影响 较 大 ,同时 由 于 物体 自身 因素 不 同 ,受到 影响 的 程度 并 


不 相同 。 小 物体 和 存在 遮挡 的 物体 由 于 包含 的 可 识别 信息 较 少 , 因此 在 噪声 的 影 


响 下 产生 误 判 。 


啊 下 置信 度 会 很 块 的 低 于 闪 值 ， 同 时 ， 与 背景 对 比 不 明显 的 物体 也 容易 在 噪声 影 


五 、 总 结 


通过 量化 噪声 的 大 小 、 控 制 噪声 等 级 的 方式 ， 本 实验 在 强 光 、 弱 光 和 和 盈 才 三 


种 噪声 场景 下 ， 


图 像 中 噪声 的 增加 ， 特 征 图 中 物体 被 误 判 的 几率 增加 ， 影 响 目标 检测 的 结果 。 强 


统计 不 同 噪声 等 级 的 目标 检测 置信 度 ， 并 分 析 统计 的 结果 。 随 着 


光 条 件 下 ， 在 噪声 等 级 达到 10 之 后 ， 大 部 分 物体 的 置信 度 都 会 受到 影响 ， 弱 光 
条 件 下 ， 置 信 度 的 变化 较 小 ， 在 噪声 等 级 达到 11 之 后 ， 少 部 分 物体 的 置信 度 会 
出 现 变 化 ; 筋 狗 条 件 下 ， 在 噪声 等 级 达到 8 之 后 ， 大 部 分 物体 置信 度 都 会 出 现 明 
显 下 降 。 同 时 噪声 对 不 同 物体 的 影响 并 不 均衡 ， 由 于 自身 因素 不 同 ， 受 到 影响 的 


程度 并 不 相同 。 


然而 也 要 注意 到 分 析 所 使 用 的 数据 是 模拟 生成 的 , 虽然 最 后 使 用 现实 场景 攻 


数据 进行 了 验 训 


FE， 但 模拟 数据 和 现实 数据 依然 有 出 入 ， 由 于 计算 资源 不 足 ， 所 训 


练 的 网 络 检 测 能 力也 弱 于 在 服务 器 上 训练 的 网 络 。 


